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摘 要 : 单 应 估计 是 许多 计算 机 视觉 任务 中 的 一 个 基础 且 重 要 的 步骤 。 传 统 单 应 估计 方法 基于 特征 点 匹配 ， 难 以 
在 弱 纹 理 图 像 中 工作 。 深 度 学 习 已 经 应 用 于 单 应 估计 以 提高 其 便 棒 性 ， 但 现 有 方法 均 未 考虑 到 由 于 物体 尺度 差异 
导致 的 多 尺度 问题 ， 因 此 精度 受 限 。 针 对 上 述 问 题 ， 提 出 了 一 种 用 于 单 应 估计 的 多 尺度 残 差 网 络 。 该 网 络 能 够 提 
取 图 像 的 多 尺度 特征 信息 ， 并 使 用 多 尺度 特征 融合 模块 对 特征 进行 有 效 融 合 ， 此 外 还 通过 估计 四 角 点 归 一 化 偏 移 
进一步 降低 了 网 络 优化 难度 。 实 验 表 明 ， 在 MS-COCO 数据 集 上 ， 该 方法 平均 角 点 误差 仅 为 0.788 个 像素 ， 达 到 了 
亚 像素 级 的 精度 ， 并 且 在 99% 情 况 下 能 够 保持 较 高 的 精度 。 由 于 综合 利用 了 多 尺度 特征 信息 且 更 容易 优化 ， 该 方法 
精度 显著 提高 ， 并 具有 更 强 的 鲁 棒 性 。 
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Abstract: Homography estimation ls a basic and important step in many computer vision tasks. Traditional homography 
estimation methods are based on feature point matching, which are difficult to work in weak texture images. Deep learning 
has been applied to homography estimation to improve its robustness, but the existing methods do not consider the multi-scale 
problem caused by object scale differences, resulting in limited accuracy. To solve the above problems, this paper proposes a 
multi-scale residual network for homography estimation. The network can extract the multi-scale feature of the image, and 
used the Multi-Scale Feature Fusion Module to effectively fuse the features. In addition, it further reduced the difficulty of 
network optimization by estimating the four-corner normalized offset. Experiments on MS-COCO dataset showed that the 
average corner error of this method was only 0.788 pixels, which achieved sub-pixel accuracy, and can maintain high accuracy 
in 99% of cases. Due to the comprehensive utilization of multi-scale features and easier to optimize, this method had 
significantly improved accuracy and stronger robustness. 
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0 引言 许多 超 参 数 都 需要 人 工 指定 口 。 

本 随 着 深度 学 习 的 兴起 ， 基 于 深度 学 习 的 单 应 估计 方法 被 
单 应 (homography) 指 从 一 个 平面 到 另 一 个 平面 的 可 逆 映 ” 相继 提出 。2016 年 DeTone 等 人 0 首次 提出 了 一 种 基于 VGG 
射 ， 这 种 映射 关系 可 以 使 用 一 个 3X3 的 非 奇 异 和 矩阵 来 表示 ， ”架构 的 网 络 用 于 单 应 估计 ， 显 示 了 深度 学 习 方法 在 单 应 估计 
其 中 包含 了 平移 、 缩 放 、 旋 转 与 透视 ， 称 为 单 应 矩阵 加。 给 ”中 的 潜力 ; 2017 年 Nowruzi 等 人 U3 使 用 一 种 分 层 堆 释 的 网 
定 两 幅 图 像 ， 从 中 估计 这 两 幅 图 像 之 间 的 单 应 变换 是 计算 机 络 ， 通 过 堆 芭 多 个 相同 网 络 模块 来 逐步 细 化 估计 结果 ; 


t 


视觉 中 常见 的 需求 。 单 应 估计 具有 广泛 的 应 用 场景 ， 是 图 像 ”Nguyen 等 人 4 提出 了 单 应 估计 的 无 监督 学 习 方 法 ，2020 年 
配 准 让、 图 像 拼接 B]、 图 像 矫 正夫、 三 维 重 建生 以 及 SLAMIQG ”Zhang 等 人 (1 引 以 残 差 网 络 为 主干 ， 并 使 用 内 容 掩 码 来 选择 可 
等 任务 中 的 基础 性 工作 ， 单 应 估计 的 精度 对 于 这 些 任务 有 十 ” 靠 的 区 域 进 行 单 应 估计 。 这 些 方 法 均 取 得 了 一 定 的 效果 ， 但 
分 重要 的 影响 。 都 忽略 了 单 应 估计 的 多 尺度 性 。 在 单 应 估计 中 ， 两 次 拍摄 的 

传统 的 单 应 估计 方法 通常 是 基于 特征 点 匹配 的 。 它 使 用 。 照片 由 于 相机 的 位 置 、 距 离 和 角度 的 不 同 ， 导 致 两 张 图 像 中 


SIFT、SURFMI 或 ORBDI 等 算法 提取 图 像 中 的 特征 点 ， 通 ”的 同一 物体 可 能 具有 不 同 的 尺度 ， 而 上 述 网 络 模型 均 未 考虑 
过 暴力 匹配 或 FLANN09 等 匹配 方法 获得 两 组 特征 点 的 对 应 ”到 这 一 点 ， 采 用 了 单一 尺度 的 特征 进行 单 应 估计 ， 因 此 具有 


关系 ， 最 后 利用 RANSACHMI 算 法 剔除 错误 匹配 后 求解 得 到 ”一 定 的 局 限 性 。 
单 应 和 矩阵。 然而 这 种 方法 的 效果 很 大 程度 上 依赖 于 特征 点 的 为 了 解决 单 应 估计 中 存在 的 多 尺度 问题 ， 同 时 也 受到 


数量 与 分 布 ， 难 以 应 用 于 弱 纹 理 图 像 中 ， 并 且 步 又 比较 繁琐 ，”SKNet09 在 多 尺度 特征 融合 方式 上 的 启发 ， 本 文 提 出 了 一 种 
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多 尺度 残 差 单 应 估计 网 络 (Multi-scale Residual Homography 
Estimation Network，MRHENeb 来 进行 单 应 估计 。 该 网 络 主 
要 创新 点 有 : a) 使 用 不 同感 受 野 的 卷 积 层 提取 多 尺度 特征 进 
行 单 应 估计 ; b) 提 出 多 尺度 特征 融合 模块 (Multi-Scale 
Feature Fusion Module，MFF Module) 来 有 效 融合 多 尺度 特征 ; 
c) 不 直接 估计 四 角 点 绝对 像素 偏 移 03， 而 是 估计 四 和 角 点 归 一 
化 偏 移 。 在 MS-COCO 数据 集 [1"1 与 Apolloscape 数据 集 081 上 
的 实验 结果 表明 本 文 方法 优 于 现 有 方法 。 其 中 ， 在 MS- 
COCO 数据 集 上 ， 本 文 方法 平均 角 点 误差 03 仅 为 0.788 个 像 
素 ， 与 文献 [12] 和 [15] 相 比 ， 误 差分 别 降低 了 85.0% 和 59.4%， 


对 此 该 方法 精度 显著 提高 ， 有 更 强 的 鲁 棒 性 。 
1 基本 原理 


1.1 传统 单 应 估计 方法 原理 

段 设 通 过 针 孔 相机 模型 对 同一 平面 上 的 物体 进行 两 次 拍 
摄 获得 一 对 图 像 A 和 B， 那 么 图 像 A 和 B 存在 单 应 变换 的 
关系 。 使 用 3X3 的 非 奇 异 单 应 矩阵 及 来 表示 这 种 关系 ， 那 
么 根据 单 应 矩阵 的 定义 帆 ， 可 得 单 应 变换 式 (1): 


xX" x| [fh he hs|[x 
y=H:yl=Ib hs joy (1 ) 
1 1| Lh ha hs ll 


式 (1) 中 单 应 矩阵 万 将 图 像 A 上 的 点 (x, y) 映 射 到 另 一 图 
像 B 上 的 (x',y" )。 将 式 (1) 变 换 后 ， 可 得 2 个 线性 方程 : 
,hxt+hy+hys un box+ hyy +h 
hxt+ hy + hss ” hax + hssy + hs 2 
在 单 应 矩阵 万 中 ，h33 为 非 零 的 缩放 系数 ， 一 般 为 1， 
忆 此 只 有 8 个 自由 度 。 根 据 式 (2)，1 组 匹配 点 对 可 得 2 个 线 
性 方程 ， 因 此 最 少 只 需要 4 组 匹配 点 对 即 可 求解 单 应 矩阵 ， 
佳 一 的 限制 是 这 4 组 匹配 点 对 中 来 自 同 一 图 像 的 点 需要 满足 
任意 3 点 不 共 线 口 。 


无 法 求解 ,n<4 
H=3 forr(Cornerss,Cornerss) ,n=4 (3) 
frs (Cornersa,Cornerss) ,n>4 
单 应 矩阵 求解 方法 如 式 (3) 所 示 ， 其 中 Cornersa、 
Cornerss 分 别 表 示 对 两 图 提取 的 匹配 特征 点 坐标 ，n 表示 匹 
配点 对 的 数量 。 匹 配点 对 若 少 于 4 组， 则 无 法 求解 ， 若 只 有 
4 组 ， 则 可 以 使 用 直接 线性 变换 法 (Direct Linear 
Transformation，DLT) 求 解 单 应 和 矩阵; 若 多 于 4 组 ， 则 可 以 
使 用 最 小 二 乘法 (Least Squares，LS) 求 解 。 
传统 单 应 估计 方法 步骤 如 下 : a) 通 过 特征 点 检测 算法 从 
待 估计 的 两 图 中 获取 特征 点 。b) 使 用 特征 点 匹配 算法 以 建立 
两 组 特征 点 之 间 的 对 应 关系 。c) 根 据 对 应 关系 来 求解 单 应 算 
阵 。 针 对 特征 点 检测 算法 ， 目 前 已 有 大 量 研究 : 文献 [7] 提 
出 SIFT 算法 ， 匹 配 精度 高 ， 但 算法 复杂 度 较 高 ， 运 算 时 间 
长 ; 文献 [8] 对 SIFT 算法 运算 速度 进行 了 改进 ， 提 出 SURF 
算法 ， 文 献 [9] 提 出 了 ORB 算法 ， 计 算 效 率 较 高 但 质量 不 如 
SIFT 算法 。 特 征 点 匹配 可 使 用 暴力 匹配 或 FLANNU9 等 方法 。 
于 可 能 存在 误 匹 配 的 特征 点 对 ， 在 求解 单 应 矩阵 时 ， 还 需 
要 使 用 RANSACID 算 法 排除 误 匹 配 的 离 群 值 。 
传统 单 应 估计 方法 依赖 于 特征 点 检测 质量 与 分 布 。 实 际 
， 为 了 达到 理想 精度 而 选择 的 特征 点 检测 算法 速度 通常 较 
慢 ， 并 且 对 于 弱 纹 理 图 像 ， 往 往 难以 找到 足够 多 的 匹配 点 对 
来 求解 单 应 矩阵 ， 导 致 误差 很 大 甚至 无 法 求解 。 因 此 ， 传 统 
单 应 估计 方法 鲁 棒 性 较 弱 ， 在 实际 使 用 时 有 诸多 限制 。 
1.2 深度 学 习 单 应 估计 方法 原理 
基于 深度 学 习 的 单 应 估计 是 指 通过 深度 学 习 方 法 从 输入 
的 两 张 图 像 中 估计 出 对 应 的 单 应 变换 ， 其 基本 原理 如 图 1 所 
示 。 假 设 有 一 对 待 估计 图 像 A 和 B， 其 中 A 为 源 图 像 ，B 为 
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目标 图 像 ， 图 像 B 是 由 图 像 A 经 过 单 应 变换 
阵 为 瓦 。 基 于 深度 学 习 的 单 应 估计 方法 的 基本 
对 图 像 A 和 B 预 处 理 ， 然 后 将 处 理 后 的 图 像 
网 络 估计 出 某 种 形式 表示 的 单 应 变换 ， 最 后 计 


而 来 ， 单 应 和 矩 
步骤 为 : 首先 
输入 网 络 ， 
算得 到 单 应 矩 


计 值 )。 


阵 (本 表示 对 五 的 估计 值 ， 下 文 均 使 用 上 标 “* ”表示 估 


图 1 深度 学 习 单 应 估计 方法 原理 示意 


Fig. 1 Schematic diagram of homography 


estimation method based on deep learning 


单 应 变换 具有 多 种 表示 方式 ， 可 以 直接 采 


ee 


用 单 应 矩阵 来 


表示 ， 也 可 以 采用 四 角 点 绝对 像素 偏 移 023 或 者 其 他 形式 来 


表示 。 由 于 单 应 矩阵 中 的 各 个 元 素 的 意义 与 取 
司 ， 0 式 (1) 中 hu、hiz、hz1 和 h2> 表 示 旋 转 ， 
平移 ， 而 平移 元 素 一 般 会 远 远 大 于 旋转 元 素 ， 
的 元 素 进 行 归 一 化 处 理 ， 因 此 直接 使 用 深 
阵 十 分 困难 。 为 此 ， 文 献 [12] 不 直接 估计 
单 应 矩阵 参数 化 为 四 角 点 绝对 像素 偏 移 ， 


el 
ey 
过 
灶 


由 


值 范围 各 不 相 
his、h23 表示 
且 又 无 法 对 和 拢 
度 网 络 估计 单 
单 应 和 矩阵， 而 
通过 网 络 估计 


点 绝对 像素 偏 移 从 而 得 到 4 组 匹配 点 对 ， 


使 用 式 (3) 中 


上 小车 疝 


妆 线 性 法 求解 以 获取 单 应 矩阵 。 


与 传统 单 应 估计 方法 相 比 ， 深 度 学 习 单 应 
和 重 棒 性 上 具有 诸多 优势 。 传 统 方法 由 于 需 
寺 征 点 ， 速 度 通 常 较 慢 ， 并 且 在 弱 纹 理 图 像 中 


估计 方法 在 速 
要 检测 和 匹配 
难以 获得 稳定 


对 芝 尊 到 四 各 导 


效 的 匹配 点 对 ， 导 致 不 能 工作 。 而 深度 学 习 
测 与 匹配 特征 点 ， 因 此 速度 较 快 。 对 于 传统 方 
弱 纹 理 图 像 ， 深 度 学 习 同样 能 根据 大 量 Y 练 数 


宇 


方法 不 需要 检 
法 不 能 处 理 的 
据 学 习 到 的 规 


律 来 估计 出 较 合 理 的 单 应 矩阵 。 因 此 深度 学 习 


单 应 估计 方法 


在 实际 使 用 中 限制 较 小 ， 鲁 棒 性 更 强 ， 具 有 较 
2 多 尺度 残 差 单 应 估计 网 络 


2.1 网 络 结构 
2016 年 文献 [12] 首 次 将 一 种 VGG 架构 的 


大 的 应 用 价值 。 


网 络 用 于 单 应 


估计 ， 但 由 于 网 络 结构 简单 且 深 度 较 浅 ， 效 果 
比 提 升 有 限 。 传 统 的 卷 积 神经 网 络 随 着 深度 不 
可 能 会 出 现 退 化 ， 训 练 也 会 更 加 困难 。 因 此 ， 
人 09] 提 出 残 差 网 络 (ResNeb)， 通 过 恒 等 映 射 来 
训练 难度 。2020 年 文献 [15] 使 用 ResNet34 作 
用 内 容 掩 码 来 进行 单 应 估计 ， 效 果 相 比 于 前 人 
但 是 以 上 方法 均 忽 略 了 单 应 估计 中 存在 的 多 尺 
具有 一 定 的 局 限 性 。 
在 单 应 估计 中 ， 两 次 拍摄 的 照片 由 于 相机 


与 传统 方法 相 
断 加 深 ， 网 络 
2016 年 He 等 
降低 深度 网 络 
为 主干 ， 并 使 
有 一 定 提高 。 
度 问 题 ， 因 此 


位 置 、 距 离 和 


一 物体 尺度 可 能 会 发 生变 化 ， 因 此 单 应 估 


度 的 不 同 ， 两 张 图 像 之 间 会 存在 扭曲 与 缩放 ， 


计 面 临 多 尺度 


挑战 。 为 了 解决 这 一 问题 ， 本 文 综合 多 尺度 


特征 信息 来 估 


计 四 角 点 归 一 化 偏 移 ， 提 出 了 一 种 多 尺度 残 差 


单 应 估计 。 该 网 络 相 比 于 前 人 提出 的 单 应 


日 


右 计 网 络 
右 计 网 络 


改 


创新 : 首先 ， 网 络 具 有 三 个 多 尺度 分 
图 像 的 多 尺度 特征 信息 ; 其次， 提出 了 多 尺度 


支 ， 能 够 提 
特征 融合 模 


(MFF Module) 来 逐步 融合 多 尺度 特征 ; 最 后 ， 
十 计 四 角 点 绝对 像素 偏 移 ， 而 是 估计 四 角 点 归 
络 结构 如 图 2 所 示 。 
网 络 输入 待 估计 的 两 张 128X128 的 归 一 


反 
块 
网 络 并 不 直接 
一 化 偏 移 。 网 


化 灰 度 图 像 ， 
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输出 表示 四 角 点 归 一 化 偏 移 的 4X2 矩阵 Hy 体 计 算 stagel 块 输出 与 中 尺度 特征 图 通过 一 个 MFF 模块 (缩放 系数 


过 程 如 下 : 首先 ， 将 待 估计 的 两 图 像 归 一 化 后 成 到， 


f=2) 融 合 后 作为 stage2 块 的 输入 ，stage2 块 输出 与 小 尺度 特 


同时 输入 到 三 个 特征 提取 分 支 中 ， 分 别提 取 大 尺度 、 中 尺度 
和 小 尺度 的 特征 。 其 中 ， eh 
长 为 2 的 卷 积 层 用 来 减 小 特征 图 。 三 个 分 支 经 过 ReLU 激活 
函数 后 ， 大 尺度 特征 图 输入 到 ResNet3409 的 stagel 块 ， 


channels=64 channels=64 


channels=64 channels=128 channels=128 


征 图 再 通过 一 个 MFF 模块 (r=4) 融 合 后 依次 通过 stage3 块 和 
stage4 块 ; 最 后 ， 特 征 图 通过 平均 池 化 后 形状 变 为 1 X1 Xx 
512， 再 经 过 全 连接 层 输出 4X2 的 矩阵 Hwwm。 为 了 加 速 训 
练 ， 在 每 个 卷 积 层 后 均 使 用 了 BatchNorm 层 P0。 


Ax2 Ay2 
Ax3 Ay3 
Ax4 Ay4 


Axi Ayi 


有 
512 4pt_norm 


图 2 ”多 尺度 残 差 单 应 估计 网 络 结构 图 


Fig.2 Multi-scale residual homography estimation network structure diagram 


2.2 多 尺度 特征 提取 
在 单 应 估计 中 ， 两 次 扣 摄 的 照片 由 于 相机 位 置 、 距离 和 
角度 的 不 同 ， 两 张 图 像 之 间 会 存在 扭曲 与 缩放 ， 导 致 图 像 中 
的 同一 eee ee 
的 挑战 。 而 文献 [12~15] 均 忽略 了 这 个 问题 ， 将 两 图 视 为 相 
同 尺 度 对 待 ， 使 用 单一 大 小 的 卷 积 层 来 提取 图 像 的 原始 特征 。 
单一 的 卷 积 核 感 受 野 是 固定 不 变 的 ， 导 致 提取 到 的 特征 是 在 


2.3 ”多 尺度 特征 融合 

在 基于 卷 积 的 单 应 估计 网 络 中 ， 图 像 特 征 通过 卷 积 层 逐 
渐 由 浅 层 特征 变 为 深层 特征 。 浅 层 特 征 分 辨 率 更 高 ， 包 含 更 
多 位 置 、 几 何等 细节 信息 ， 但 是 由 于 经 过 的 卷 积 层 较 少 ， 其 
语义 性 更 低 ; 而 深层 特征 具有 更 强 的 语义 信息 ， 但 是 对 细节 
感知 能 力 较 差 。 有效 利用 浅 层 特征 与 深层 特征 的 优势 是 提高 
单 应 估计 精度 的 关键 之 一 。 


单一 空间 尺度 下 的 ， 虽 然 特 征 会 在 后 续 的 卷 积 层 和 激活 函数 
后 被 不 断 聚 合成 深层 语义 特征 ， 感 受 野 逐 渐变 大 ， 但 此 时 已 
经 丢失 了 图 像 原始 的 空间 、 几 何等 细节 特征 C1。 因 此 ， 使 
用 单一 尺度 的 特征 来 进行 单 应 估计 具有 一 定 的 局 限 性 ， 尤 其 
在 两 张 图 像 具 有 较 大 尺度 差异 时 效果 不 佳 。 因 此 ， 多 尺度 特 
征 信息 对 于 单 应 估计 是 十 分 重要 的 。 本 文 把 多 尺度 特征 信息 
引入 网 络 ， 利 用 多 尺度 特征 信息 来 解决 单 应 估计 中 尺度 不 一 


姑 此 ， 网 络 并 没有 在 刚 开始 就 将 三 种 尺度 的 特征 融合 ， 

而 是 在 stagel 块 和 stage2 块 后 分 别 将 中 尺度 和 小 尺度 的 特征 
融合 到 网 络 的 主干 中 。 采 用 了 逐步 融合 的 方式 ， 能 够 利用 浅 
层 特征 包含 的 细节 信息 对 深层 特征 进行 补充 ， 实 现 浅 层 特征 
与 深层 特征 优势 互补 。 多 尺度 分 支 提取 的 特征 由 于 尺度 不 同 ， 
如 果 直 接 通 过 相 加 来 融合 会 导致 不 同 尺度 特征 混合 而 难以 充 
分 利用 多 尺度 特征 的 优势 ， 如 果 将 特征 在 通道 上 连接 ， 多 尺 


致 的 问题 ， 从 而 提高 单 应 估计 的 精度 ， 使 得 即使 在 图 像 尺度 
差异 较 大 的 情况 下 该 方法 也 达到 理想 的 效果 。 
图 2 所 示 的 网 络 具 有 大 、 中 、 小 三 个 尺度 的 提取 分 支 ， 
每 个 分 支 能 够 提取 对 应 尺度 的 特征 ， 因 此 网 络 能 够 利用 多 尺 
度 特征 信息 来 估计 单 应 变换 。 具 体 来 说 ， 在 三 个 多 尺度 分 支 
中 ， 分 别 使 用 了 感受 时 为 7X7、5X5 和 3X3 空洞 卷 积 层 C2] 
来 提取 图 像 的 不 同 尺度 上 的 特征 。 图 3 显示 了 空洞 卷 积 层 的 
原理 ， 与 标准 卷 积 相 比 ， 空 洞 卷 积 可 以 保证 感受 野 大 小 不 变 
的 同时 降低 参数 量 和 计算 量 ， 能 够 提高 计算 效率 。 


Conv 3X3 Conv3X3 Conv3X3 
dilation=1 dilation=2 dilation=3 


图 3 空洞 卷 积 示意 图 
Fig.3 Schematic diagram of dilated convolution 
在 原始 的 ResNet3409 中 ， 使 用 了 最 大 池 化 来 对 特征 图 
下 采样 。 但 是 最 大 池 化 下 采样 过 程 中 只 保留 最 大 值 ， 导 致 其 


度 特 征 能 得 到 保留 ， 但 是 通道 数 就 会 加 倍 ， 计 算 效 率 会 大 由 
降低 。 考 虑 到 特征 虽然 尺度 不 同 ， 但 均 来 自 于 同一 输入 ， 所 
以 特征 之 间 会 存在 见 余 。 为 了 充分 利用 多 尺度 特征 并 减少 元 
余 提 高 计算 效率 ， 同 时 也 受到 文献 [16] 在 多 尺度 特征 融合 方 
式 上 的 启发 ， 本 文 提出 了 使 用 多 尺度 特征 融合 模块 MFF 
Module 来 融合 不 同 尺 度 的 特征 。 

MFF 模块 结构 如 图 4 所 示 。 输 入 2 个 不 同 尺度 的 特征 图 
xx seRewc ，MFF 模块 输出 融合 后 的 特征 图 zw eR**< 。 
文献 [16] 中 为 了 融合 不 同 尺度 的 特征 ， 先 将 xi 与 x2 直接 相 
加 ， 再 使 用 1X1 的 平均 池 化 来 提取 通道 上 的 信息 。 而 本 文 
与 文献 [16] 有 两 处 不 同 之 处 : 第 一 ， 本 文 先 将 x/ 与 旋 在 通 i 
上 连接 ， 这 样 可 以 保持 xy 与 xz 各 自 的 特征 ， 便 于 后 续 提 : 
通道 上 的 特征 ;第 二 ， 本 文 同时 使 用 了 1X1 平 均 池 化 与 1 
1 最 大 池 化 来 提取 通道 上 的 信息 。 原 因 是 平均 池 化 只 能 提 : 
到 全 局 的 平均 信息 不 能 提取 到 局 部 信息 ， 而 最 大 池 化 只 能 
取 局 部 信息 而 不 能 提取 到 全 局 信息 ， 因 此 同时 使 用 平均 池 
与 最 大 池 化 能 够 综合 全 局 与 局 部 的 信息 。MFF 模块 具 
算 过 程 如 下 : 

a) 将 xyz、x2? 在 通道 上 连接 ， 得 到 xcwERe 2C， 对 xceu 
分 别 使 用 1X1 平均 池 化 和 1X1 最 大 池 化 分 别提 取 通 道上 的 


亚 河 


长 时 吕 又 入 入 


半 


余 特 征 信息 丢失 ， 因 此 本 文 在 这 里 没有 使 用 最 大 池 化 ， 而 是 


将 stage 


ek a 


块 中 第 一 层 卷 积 步 长 设置 为 2( 原 始 步 长 为 1 )， 在 避 
免 特征 信息 丢失 的 同时 也 减少 了 计算 量 。 由 于 后 续 的 MFF 


F 


信息 并 将 结果 相 加 ， 得 到 xg ER 人 2c; 
Xs = AvgPool(xoa ) + MaxPool(x.a ) (4) 


b) 使 用 节点 数 为 C/r 的 全 连接 层 fco(r 表示 缩放 系数 ) 缩 


烛 或 
一 


模块 需要 输入 两 个 相同 形状 的 特征 图 ， 所 以 在 中 尺度 和 小 尺 
度 特 征 提 取 分 支 中 分 别 使 用 了 1 层 和 2 层 卷 积 核 为 2X2、 步 
长 为 2 的 卷 积 层 ， 用 于 对 特征 图 下 采样 以 匹配 后 续 的 MFF 
模块 ， 同时 也 可 以 如 强 特征 信息 在 通道 上 的 交流 。 


短 xs 的 长 度 以 提高 计算 效率 ， 随 后 通过 ReLU 函数 ， 得 到 z 
ER1%07。z 分 别 通 过 2 个 节点 数 为 C 的 全 连接 层 fe1、fe2 
得 到 z1、z2ER TIC; 

Zz; = ReLU( fco(xs)) 
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Z1 =fc(z,) ; zz =fc,(z,) 


唐 


云 ， 
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Kou™ X1 * WItX2 * WD 


0) 


c) 将 zz、 纪 在 通道 上 堆 营 ， 并 在 通道 上 使 用 SofiMax 函 不 同 于 将 特征 图 直接 简单 地 相 加 ，MEFF 模块 能 够 综合 
数 ， 得 到 输入 的 两 特征 图 在 通道 上 的 权重 wl、w2ER IC; 通道 上 的 全 局 信息 为 不 同 尺度 的 特征 图 分 配 相应 权重 ， 使 得 
w]e wl (6) 网 络 具 有 根据 输入 的 图 像 选择 合适 尺度 的 特征 进行 单 应 估计 
GE 的 能 力 。 不 同 尺度 的 特征 信息 经 过 MFF 模块 融合 后 能 够 保 
d) 最 后 ， 使 用 广播 乘法 将 xz、x2 分 别 与 w:/、wz 相 乘 ， 留 有 效 特征 ， 减 少见 余 与 无 效 的 特征 ， 有 利于 网 络 充分 利用 
再 将 其 结果 相 加 ， 得 到 融合 后 的 特征 图 。 多 尺度 特征 信息 ， 从 而 提高 单 应 估计 的 精度 。 
! 1x1x2C 1x1x Ch 1x1xC/r 
图 4 MEFF 模块 结构 图 
Fig.4 Structure diagram of MFF module 
< 四 角 点 归 一 化 偏 移 后 ee ACE Ax Ax ) + (Ay, A x128 (12) 
文献 [12] 为 了 解决 直接 估计 单 应 矩阵 而 导致 网 络 难以 优 4 生 
化 的 问题 ， 将 单 应 矩阵 参数 化 为 四 角 点 绝对 像素 偏 移 Hypi， 本 文 基于 Pytorch 深度 学 习 框 架 来 完成 实验 。 训 练 过 程 
通过 估计 四 角 点 绝对 像素 偏 移 来 间接 估计 单 应 矩阵 ， 在 一 定 中 ， 使 用 了 概率 为 0.5 的 随机 翻转 用 于 增强 数据 ， 采 用 
程度 上 降低 了 网 络 优化 的 难度 。 但 是 ， 实 际 上 四 和 角 点 绝对 像 Adam 优化 器 ，L2 正则 化 权重 衰减 系数 设置 为 0.003， 每 次 
素 偏 移 在 数值 上 差异 仍然 较 大 ， 这 会 使 得 网 络 优化 过 程 中 梯 “和 帮 代 训练 256 对 图 像 ， 初 始 学 习 率 为 0.0002， 每 迭代 20K 次 
度 差异 较 大 ， 不 利于 网 络 优化 。 同 时 也 考虑 到 深度 网 络 中 的 学 习 率 乘 以 0.7， 总 共 友 代 200K 次 。 
权重 一 般 会 初始 化 为 -1.0~1.0 之 间 ， 而 四 角 点 绝对 像素 偏 移 ”3.2 实验 测试 
在 大 部 分 情况 下 会 远大 于 1 像素 ， 为 了 学 习 到 这 种 绝对 像素 为 了 验证 本 文 方法 的 实际 效果 ， 使 用 3.1 节 中 的 方法 分 
扁 移 的 分 布 规律 ， 网 络 权重 相对 于 初始 值 会 发 生 较 大 改变 ， 别 在 最 大 角 点 偏 移 p=8px、16px、24px 和 32px 时 各 生成 了 
羽 此 使 用 网 络 直接 估计 四 角 点 绝对 像素 偏 移 不 利于 网 络 收敛 。 4 万 对 图 像 ， 总 共生 成 了 16 万 对 图 像 作 为 测试 集 。 其 中 
为 了 进一步 降低 网 络 优化 难度 ， 本 文 用 网 络 估计 四 角 点 归 p=8px 表示 最 大 偏 移 距离 较 小 ，p=32px 表示 最 大 偏 移 距离 较 
化 偏 移 Hapt norm， 计 算 方 法 如 式 (8) 所 示 。 大 ， 因 此 测试 集中 包含 了 不 同 程度 偏 移 的 图 像 对 。 
和 在 测试 过 程 中 ， 平 均 角 点 误差 ACE 可 能 偶尔 会 出 现 极 
H,, ,= Ap Ml|_p 可 (8) 端 大 的 情况 ， 导 致 整个 测试 集 上 的 平均 ACE(mean average 
I | Ax An ”| 0 J corner error Mean-ACE) 偏 高 ， 同 时 传统 方法 可 能 会 由 于 特 
Axs Ays » 


式 (8) 中 的 Axi 与 Ayi(i=1、2、3、44 表 示 从 图 像 原点 开 


始 顺 时 针 第 i 个 点 在 图 像 宽度 与 高 度 方 向 上 的 归 


化 偏 移 量 ， 


刺 与 瓦 分 别 表 示 图 像 的 宽度 与 高 度 。 9 
化 偏 移 ,到 单 应 矩阵 兢 的 计算 方法 如 式 (9)~(1D 所 示 。 


0 


Cornersa = 


。 。 WwW 0 
Cornerss = Cornersa + Hy nom * 全 用 


五 "= Cornersas,Cornerss 
DT A B 


3 
3.1 


实验 与 分 析 


网 络 训 练 
本 文 使 


] MS-COCO 数 


已 


十 


W 
W 


网 络 估 计 的 四 角 点 归 


0 


H 
H 
0 


(9) 


(10) 
(11) 


集 U71 与 Apolloscape 数据 集 03]， 


征 点 较 少 而 失败 。 因 此 本 文 对 ACE 作出 限制 ， 对 于 
ACE>32px 或 者 传统 方法 失败 的 情况 ， 均 视 为 ACE=32px。 
对 于 128X128 的 图 像 ， 如 果 ACE>32px 意味 结果 几乎 没 
任何 价值 ， 所 以 选择 用 32px 作为 闵 值 。 由 于 Mean-ACE 误 
差 只 能 反映 误差 在 测试 集 上 的 平均 情况 ， 不 能 反映 误差 分 布 
情况 ， 因 此 本 文 引入 了 中 值 ACE(median average corner error, 
Median-ACE) 作 为 评价 指标 之 一 。 对 于 ACE>32px 或 者 传统 
方法 失败 这 两 种 情况 ， 意 味 着 这 次 估计 是 无 效 的 ， 所 以 本 文 
还 引入 了 无 效率 (Invalid Rate，IR) 作 为 评价 指标 之 一 ， 表 示 
无 效 的 情况 在 测试 集中 的 比例 。 实 验 中 所 有 方法 均 经 过 多 次 
测试 ， 以 避免 偶然 情况 。 

为 了 分 别 验证 本 文 提 出 的 三 个 改进 点 效果 ， 首 先进 行 
消融 实验 。 所 有 模型 均 使 用 相同 的 方法 进行 训练 与 测 i 
MS-COCO 数据 集 03 上 的 消融 实验 结果 如 表 1 所 示 ， 
“MFE” 表 示 使 用 多 尺度 特征 提取 ,“MFF” 表 示 使 用 
模块 来 融合 多 尺度 特征 ,“Norm” 表 示 使 用 了 四 化 


人 -一 


按照 文献 [12] 的 方法 生成 实验 所 需 数据 集 ， 不 同 的 是 本 文 并 


没有 将 图 像 缩放 到 320X240， 这 会 使 网 络 从 更 少 的 特征 


学 习 单 
通过 将 像素 
了 22 万 对 图 像 ， 图 


像 尺 司 


像素 (图 像 的 四 分 之 一 )， 
用 于 验证 网 络 。 


损失 函数 使 用 平均 
的 四 


ACE)02， 表 示 预 测 


™ 


器 


区 


TH 


| 


应 估计 ， 有 利于 增强 网 络 鲁 棒 性 。 除 此 以 外 ， 本 文 还 
值 除 以 255 的 方式 来 对 


像 做 归 一 化 。 


总 共生 成 


| 为 128X 128， 最 大 角 点 偏 移 p=32 
P 18 万 对 上 


于 训练 网 络 ，4 万 对 


点 误差 (Average Corner Error， 


点 偏 移 与 真实 值 的 平均 欧式 距离 ， 


单位 为 像素 (pixel，px)， 计 算 方法 如 式 (12) 所 示 。 


一 、 


有 移 。 由 表 1 可 知 ， 单 独 使 用 多 尺度 特征 提取 或 者 四 角 点 归 
一 化 偏 移 均 能 提升 模型 效果 ， 并 且 使 用 MFF 模块 融合 多 尺度 
特征 后 模型 效果 有 一 定 提 升 。 当 同时 使 用 多 尺度 特征 融合 、 
MFF 模块 与 四 角 点 归 一 化 偏 移 时 ， 模 型 效果 能 够 进一步 提升 。 
在 进行 了 消融 实验 后 ， 本 文 使 用 最 终 模 型 与 其 他 方法 进 
行 对 比 实验 。 参 与 实验 的 方法 包括 了 传统 方法 中 的 
SIFTIIHRANSACIU 法 和 ORBIH+HRANSACII 法 ， 以 及 基于 
深度 学 习 的 文献 [12, 14, 15] 的 方法 。 在 MS-COCO 数据 集 (17] 
与 Apolloscape 数据 集 08 上 的 对 比 实验 结果 如 表 2~3 所 示 。 
由 于 Apolloscape 数据 集 08 中 的 图 像 纹 理 弱 于 MS- 
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COCO 数据 集 023， 因 此 各 种 方法 在 Apolloscape 数据 集 上 的 。” ”法 在 实际 中 几乎 难以 应 用 。 而 基于 深度 学 习 的 方法 误差 与 无 
误差 均 有 一 定 升 高 。 比 较 表 2 与 表 3， 可 以 明显 看 出 传统 方 。 效率 虽然 也 有 一 定 升 高 ， 但 是 幅度 却 较 小 ， 这 也 印证 了 基于 
法 在 较 弱 纹理 图 像 上 误差 与 无 效率 大 幅 增 加 ， 这 使 得 传统 方 ” ”深度 学 习 的 方法 在 弱 纹 理 图 像 中 鲁 棒 性 更 强 。 


py 


表 1 消融 实验 结果 
Tab. 1 Result of ablation experiment 


p 8pX 16px 24px 32px 

MFE MFF Norm Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR 
0.654 0.605 0.00% 0.758 0.688 0.00% 0.978 0.859 0.00% 1.431 1.149 0.06% 
y 0.601 0.564 0.00% 0.688 0.622 0.00% 0.860 0.758 0.00% 1.236 0.981 0.05% 
y 0.417 0.373 0.00% 0.510 0.454 0.00% 0.687 0.590 0.00% 1.077 0.823 0.02% 
Ny 0.352 0.312 0.00% 0.430 0.392 0.00% 0.570 0.519 0.00% 0.881 0.702 0.01% 
Ny YY YY 0324 0.288 0.00% 0.395 0.352 0.00% 0.515 0.452 0.00% 0.788 0.616 0.00% 

表 2 在 MS-COCO 数据 集 上 的 对 比 实验 结 
Tab.2 Results of comparative experiments on MS-COCO dataset 
p 8px 16px 24px 32px 
评价 指标 Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR 


SIFTII+RANSACII 5.339 0.343 13.82% 6.020 0.519 15.18% 6.977 0.764 17.41% 8.179 1.135 20.10% 
ORBPIHRANSACHY] 12.778 4.960 29.08% 14.262 7.002 31.82% 16.860 11.751 37.88% 20.601 29.483 49.32% 


DeTonel'”] 2.072 1.779 0.00% 2.575 2.189 0.00% 3.489 2.885 0.03% 5.252 4.251 0.47% 
Nguyen0 3.487 2.959 0.00% 4.126 3.480 0.00% 5.050 4.212 0.00% 6.556 5.464 0.12% 

Zhang05] 0.873 0.752 0.00% 1.083 0.894 0.00% 1.488 1.118 0.00% 1.942 1.476 0.05% 

Ours 0.324 0.288 0.00% 0.395 0.352 0.00% 0.515 0.452 0.00% 0.788 0.616 0.00% 


表 3 在 ApolloScape 数据 集 上 的 对 比 实验 结果 
Tab.3 Results of comparative experiments on apolloscape dataset 
p 8px 16px 24px 32px 
评价 指标 Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR Mean-ACE Median-ACE IR 
SIFT"+RANSACH' 15.981 7.392 47.68% 16.696 16.493 49.03% 18.001 32.000 52.984% 18.695 32.000 54.73% 
ORBPIHRANSACH'] 25.559 32.000 74.18% 26.545 32.000 77.05% 27.423 32.000 79.86% 28.845 32.000 85.21% 


DeTonel!'”] 2.265 1.836 0.00% 3.050 2.518 0.00% 4.114 3.407 0.24% 6.123 4.813 0.62% 
Nguyenl!1] 3.693 3.010 0.00% 4.404 3.769 0.00% 5.693 4.693 0.19% 7.596 6.105 0.46% 
Zhang05l 0.967 0.822 0.00% 1.177 0.968 0.00% 1.623 1.213 0.00% 2.315 1.687 0.22% 
Ours 0.348 0.298 0.00% 0.424 0.376 0.00% 0.549 0.484 0.00% 0.922 0.664 0.01% 
于 基于 深度 学 习 的 方法 在 两 个 数据 集 上 具有 相似 的 趋 8.0 7 i 
y 汪 坦 住 A 、 \ 性 J 一 a 一 一 SIFT+R. AI 
势 ， 因 此 本 文 以 MS-COCO 数据 集 04 上 的 实验 结果 为 例 进 行 le OBEIRAMSAL 
分 析 。 图 5 和 图 6 分 别 显示 了 MS-COCO 数据 集 上 不 同 程 度 7.0 7%2 ee 
. 5 -' 生 -Nguyen 
偏 移 下 各 种 方法 的 Mean-ACE 误差 和 Median-ACE 误差 。 丈 a Zhang 
22.0 6.0 党 一 e 一 Ours 
—>— SIFTHRANSAC 20.601 5.464 
200j-- OBR+RANSAC 了 及 J 
“ -了 - DeTone 5.0 4.960 ea 
0 -二 -Nguyen 疼 
+ 一 本 an 中 a 2 
ey 16860 | | > a 
6.0 , 和 dap ps 
局 340- 区 
三 3 0|2959.—— i 
闪 12.778-… 
加 12.0 
式 
10.0 
8.179 
$0 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 3 
cd 
00 15 —— $0950 5.352 
本 126.- ee 
4.01387 到 3489— p/PXx 
20|242--------: pt 图 6 在 MS-COCO 数据 集 上 不 同 程度 偏 移 下 的 Median-ACE 
9 -一 -一 3 0 0515 0788 Fig.6 Median-ACE under different scale offsets on MS-COCO dataset 
的 16 24 区 从 表 2~3 和 图 5~6 中 可 以 看 出 : 在 传统 方法 中 ， 
p/px SIFTTIHRANSACH1 法 在 精度 上 明显 优 于 ORBBI+RANSACH1 
图 5 在 MS-COCO 数据 集 上 不 同 程度 偏 移 下 的 Mean-ACE 法 。 所 有 方法 随 着 图 像 最 大 偏 移 距离 p 由 小 变 大 (从 8px 增 


Fig.5 Mean-ACE under different scale offsets on MS-COCO dataset 加 到 32px)，Mean-ACE 与 Median-ACE 误差 均 有 不 同 程度 
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上 


地 增加 。 其 中 ， 本 文 误 差 变化 则 相对 平缓 ， 是 唯一 能 够 始终 保  RANSAC00 法 在 弱 纹 理 图 像 中 几乎 不 能 工作 ， 而 本 文 方法 


持 亚 像素 级 精度 的 方法 ， 而 其 他 方法 误差 增加 地 比较 明显 。 基 则 始终 保持 较 低 的 误差 。 

于 深度 学 习 文献 [12, 14, 15] 的 方法 在 MS-COCO 数据 集 00 上 虽 表 4 不 同方 法 的 性 能 对 比 

然 Mean-ACE 误差 小 于 SIFT+RANSAC 法 ,但 是 Median-ACE Tab.4 Performance comparison of different methods 

误差 却 比 SIFT+RANSAC 法 大 ， 而 本 文 方法 则 在 Mean-ACE 与 方法 模型 大 小 PPS 

Median-ACE 误差 上 均 领 先 于 SIFT+RANSAC 法 。 SIFTUIHRANSACIID 75 
图 7 显示 了 在 较 大 偏 移 (p=32px) 时 MS-COCO 数据 集 [17] ORBDH+RANSAC0D - 100 

上 各 种 方法 的 ACE 累积 分 布 曲线 。 从 中 可 以 看 出 : 传统 方 DeTone0al 32.61M 10200 

法 中 ORBMHRANSACH1 法 表现 较 差 ， 在 大 部 分 情况 下 都 有 具 Nguyentq 31.54M 9800 

有 相对 较 高 的 误差 ， 无 效率 高 达 49.32% ; SIFTWI+ Zhangl!5] 20.31M 5950 

RANSACI 1 法 表现 较 好 一 些 ， 能 够 在 大 约 70% 的 情况 下 保 Ours 20.46M 5900 


持 较 低 的 误差 (ACE<4px)， 而 在 另外 30% 的 情况 下 误差 会 急 。 “PPS(Pairs Per Second) 表 示 每 秒 处 理 的 图 像 对 数量 。SIFT+RANSAC 与 
剧 升 高 ， 表 现 变 得 非常 糟糕 ， 无 效率 为 20.1%。 基 于 深度 学 。 ORB+RANSAC 运行 于 CPU(R5 5600X)， 而 其 他 方法 运行 于 GPU(RTX 
习 的 方法 整体 上 都 能 在 99% 以 上 的 情况 下 正常 工作 ”3080T))。 
(ACE<32px)， 但 文献 [12, 14, 15] 的 方法 60% 以 上 的 情况 误差 
高 于 SIFT+RANSAC 法 ， 仅 能 在 另外 少 部 分 情况 下 获得 比 
SIFT+RANSAC 法 更 好 的 结果 ; 而 本 文 方法 能 够 在 绝 大 部 分 
情况 下 具有 比 SIFT+RANSAC 法 更 低 的 误差 ， 并 且 能 够 在 
99% 情 况 下 保持 较 高 的 精度 (ACE<4px)， 有 具有 最 好 的 鲁 棒 性 。 

表 4 显示 了 不 同方 法 之 间 的 性 能 对 比 。 在 模型 大 小 方面 ， 
本 文 模型 比 文献 [12, 14] 更 小 ; 在 处 理 速度 方面 ， 本 文 方法 
速度 与 传统 方法 相 比 具有 显著 提升 ， 与 文献 [15] 速 度 相 当 。 
3.3 效果 展示 
图 8 显示 了 使 用 不 同方 法 进行 单 应 估计 上 的 可 视 化 效果 。 
其 中 最 左 侧 表示 被 估计 的 两 张 图 像 ， 右 侧 图 像 中 的 蓝 色 框 与 
红色 框 分 别 表示 被 估计 两 图 在 原 图 中 的 位 置 ， 绿 色 框 表示 使 
用 不 同方 法 估计 的 结果 。 红 色 框 与 绿色 框 四 角 点 的 平均 距离 


即 为 3.1 节 中 的 ACE 误差 ， 两 者 越 接 近 则 表示 误差 越 低 ， 该 | | Proportion 
方法 越 好 。 佑 计 误 差 显示 在 对 应 图 像 下 方 ,“fail” 则 表示 该 图 7 在 MS-COCO 数据 集 上 的 ACE 累计 分 布 曲线 
方法 失败 。 可 以 看 出 SIFTTHRANSACM! 法 与 ORBI9+ Fig.7 ACE cumulative distribution function on MS-COCO dataset 
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ACE=0.175 


si 


SIFT+RANSAC ORBTRANSAC DeTone 
图 8 单 应 估计 效果 
Fig.8 Effect diagram of homography estimation 
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单 应 估计 是 图 像 拼接 、 图 像 矫 正 等 许多 计算 机 视觉 任务 
中 的 一 个 基础 且 重要 的 步骤 ， 泛 的 应 用 场景 ， 提 高 单 
应 估计 的 精度 对 这 些 任务 具有 重大 意义 。 基 于 特征 点 匹配 的 
传统 单 应 估计 方法 难以 在 弱 纹 理 图 像 中 工作 。 然 而 现 有 的 深 


特征 广 


度 学 习 方 法 未 考虑 到 单 应 估计 的 多 尺度 性 ， 使 用 单一 尺度 的 
正 来 估计 四 具 

表现 不 佳 。 
进行 单 应 估计 的 方法 ， 通 过 提取 图 像 的 多 尺度 特征 信息 并 使 
用 MFF 模块 来 融合 多 尺度 特性 信息 ， 有 效 利 用 了 多 尺度 特 
征 信息 同时 结合 了 


角 点 绝对 像素 偏 移 ， 导 致 图 像 具有 较 大 偏 移 时 
本 文 提 出 了 一 种 基于 多 尺度 残 差 单 应 估计 网 络 来 


浅 层 特征 与 深层 特征 的 优势 ， 并 且 通 过 估 


计 四 角 
个 数据 集 上 的 实验 证 明了 该 方法 相 比 于 前 人 提出 


点 归 


化 偏 移 来 进一步 降低 了 网 络 优 化 的 难度 。 在 多 
的 传统 方法 


以 及 深度 学 习 方法 精度 显著 提高 ， 鲁 棒 性 也 更 强 ， 因 此 在 实 


际 中 


有 较 大 的 应 用 价值 。 
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